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【摘要 】 背景 ”糖尿病 肾病 (DNO) 是 糖尿 病 常 见 的 微血管 并 发 症 之 一 ， 发 病 率 高 ， 危 害 性 大 。 早 期 发 现 DN 对 
预防 相关 疾病 非常 重要 。 目 前 大 多 研究 基于 传统 的 统计 预测 方法 ， 数 据 需 满足 其 所 要 求 的 前 提 假 设 条 件 。 近 年 来 已 无 
法 很 好 满足 其 在 DN 预测 领域 的 需求 ， 有 必要 尝试 开展 机 器 学 习 等 新 方法 在 DN 预测 领域 的 应 用 。 目 的 ”利用 LASSO 
回归 和 麻 管 搜索 算法 (SSA ) 优化 的 BP 神经 网 络 (SSA-BP 神经 网 络 ) 构建 DN 预测 模型 。 方 法 ”本 研究 时 间 为 2023 
年 4 一 8 月 ， 数 据 来 源 于 公开 的 伊朗 133 名 糖尿 病 患者 的 并 发 症 数据 。 采 用 SPSS 26.0 软件 进行 单 因 素 分 析 ， 采 用 
LASSO 回归 筛选 变量 。 以 是 否 患 DN 为 因 变 量 ， 分 别 用 8 : 2 和 7:3 的 比例 划分 训练 集 和 测试 集 ， 使 用 SSA-BP 神经 
网 络 进行 建 模 与 分 析 , 并 与 经 典 的 机 器 学 习 模 型 对 比 预测 性 能 以 分 析 较 优 的 DN 模型 。 基 于 准确 率 、 精 确 率 、 灵 敏 度 、 
竺 异 度 、Fl-score 和 AUC 指标 进行 模型 评价 。 结 果 “剔除 9 例 1 型 糖尿 病 患 者 ， 本 研究 纳入 的 有 效 样本 量 为 124 ffl 2 
型 糖尿 病 (T2DM ) 患者 ， 其 中 73 例 (58.996) 被 诊断 为 DN 患者 。 单 因素 分 析 显 示 年 龄 、BMI、 糖 尿 病 持续 时 间 、 空 
做 血糖 (FBS ) 、 糖 化 血红 蛋白 ( HbA1. ) 、 低 密度 脂 和 蛋白 (LDL ) 、 高 密度 脂 蛋白 (HDL ) 、 三 酰 甘油 (TG ) 、 收 缩 
JE (SBP) 和 和 舒张 奈 ( DBP ) 的 T2DM 患者 DN 危险 因素 (P«0.05) 。 训 练 集 : 测试 集 =8 : 2 时 ,训练 集 (n=100 ) 中 
4 59 例 DN 患者 ， 测 试 集 (n=24 ) 含有 14 例 DN 患者。LASSO 回归 筛选 出 年 龄 、 糖 尿 病 持续 时 间 、HbA,,、LDL 和 
SBP 共 5 个 影响 因素 。Logistic 回归 (LR) 、K 近邻 ( KNN ) 、 支 持 向 量 机 (SVM ) 、BP 神经 网 络 、SSA-BP 神经 网 络 
模型 在 测试 集 的 准确 率 分 别 为 83.33% 、79.17% 、79.17% 、87.50% 、95.83%。F1-score 分 别 为 0.846 2、0.800 0、0.800 0、 
0.888 9, 0.960 0。 训 练 集 : 测试 集 =7 :3 时 ,训练 集 (n=88 ) 中 有 52 例 DN 患者 , 测试 集 (n=36 ) 含有 21 例 DN 患者 。 
LASSO 回归 筛选 出 年 龄 、BMI、 糖 尿 病 持续 时 间 、LDL、HDL、SBP 和 DBP 这 7 个 影响 因素 。LR、KNN、SVM、BP 神 
经 网 络 、SSA-BP 神经 网 络 模型 在 测试 集 的 准确 率 分 别 为 86.1196, 86.11%, 86.1196, 72.2296. 91.6796, Fl-score 分 别 
为 0.871 8, 0.871 8, 0.864 9, 0.705 9、0.909 1。 结 论 LR, KNN 和 SVM 模型 在 训练 集 : 测试 集 =7 :3 时 性 能 较 好 ， 
BP 神经 网 络 和 SSA-BP 神经 网 络 模型 在 训练 集 : 测试 集 =8 : 2 时 性 能 较 好 。 相 较 于 BP 神经 网 络 模型 和 传统 机 器 学 习 
模型 ，SSA-BP 神经 网 络 模型 的 预测 性 能 更 佳 ， 可 及 时 准确 识别 T2DM DN 患者 ， 实 现 DN 的 时 发现 和 早 治疗 ， 从 而 预 
防 并 减缓 对 其 身体 带 来 的 危害 。 
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[ Abstract ] 


of diabetes, which is highly prevalent and harmful. Early detection of DN is an important task in preventing related diseases. 


Background Diabetic nephropathy ( DN ) is one of the most common microvascular complications 


Currently, most of the researches are based on traditional statistical prediction methods, and data need to meet the prerequisites 
it requires. It is necessary to try to apply new methods such as machine learning in the area of DN prediction for its failing to meet 
the needs in the field of DN prediction in recent years. Objective — To construct DN prediction model using the LASSO regression 
and BP neural network optimized by sparrow search algorithm ( SSA-BP ) . Methods This study was conducted from April 2023 
to August 2023, and the data was obtained from publicly available data on complications of 133 patients with diabetes mellitus in 
Iran. Univariate analysis was conducted using SPSS 26.0 software, and variables were screened using LASSO regression. Using 
the presence of DN as the dependent variable, the training and testing sets were divided into 8 : 2 and 7:3 ratios, respectively. 
The SSA-BP neural network was used for modeling and analysis, and the prediction performance was compared with classical 
machine learning models to analyze the better DN model. Model evaluation was performed based on accuracy, precision, 
sensitivity, specificity, Fl-score and AUC indicators. Results | Excluding 9 patients with type 1 diabetes, the effective sample 
size included in this study was 124 patients with type 2 diabetes mellitus ( T2DM ) , of which 73 ( 58.996 ) were diagnosed with 
DN. Univariate analysis of risk factors for type 2 DN showed statistically significant for age, BMI, duration of diabetes, fasting 
blood glucose ( FBG ) , glycosylated hemoglobin ( HbA,, ) , low-density lipoprotein (LDL ) , high-density lipoprotein ( HDL ) , 
triacylglycerol ( TG ) , systolic blood pressure ( SBP ) and diastolic blood pressure ( DBP) ( P«0.05 ) . When the ratio of 
the training set to the test set was 8 : 2, there were 59 DN patients in the training set ( n=100 ) and 14 DN patients in the test 
set (n=24 ) . Five influencing factors of age, diabetes duration, HbA,., LDL, and SBP were obtained by LASSO regression 
screening. The accuracy rates of Logistic regression ( LR ) , K-nearest neighbor ( KNN ) , support vector machine (SVM ) 
and SSA- BP models in the test set were 83.3396, 79.1796, 79.1796, 87.5096, and 95.8396, with F1—score as 0.846 2, 0.800 
0, 0.800 0, 0.888 9, and 0.960 O, respectively. When the ratio of the training set to the test set was 7:3, there were 52 DN 
patients in the training set (n=88 ) and 21 DN patients in the test set ( n236 ) . Seven influencing factors obtained by LASSO 
regression screening included age, BMI, diabetes duration, LDL, HDL, SBP, and DBP. The accuracy rates of LR, KNN, 
SVM, BP, and SSA-BP models in the test set were 86.1196, 86.1196, 86.1196, 72.2296, and 91.6796, with Fl—score as 0.871 8, 
0.871 8, 0.864 9, 0.705 9, and 0.909 1, respectively. Conclusion LR, KNN, and SVM perform better when the training 
set to the test set is 7:3, while BP and SSA-BP perform better when the training set to the test set is 8 : 2. Compared with the BP 
neural network and traditional machine learning models, SSA-BP model has the best prediction performance and can timely and 
accurately identify type 2 DN patients, realize early detection and treatment of DN, thus preventing and mitigating the harm to 
their bodies. 
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糖尿 病 是 最 常见 的 人 类 疾病 之 一 , 已 成 为 世界 范围 
内 重要 的 公共 卫生 问题 … 。 糖 尿 病 肾病 (DN ) 是 2 型 
糖尿 病 CT2DM ) 常见 的 慢性 微血管 并 发 症 ， 也 是 世界 
范围 内 终 末 期 肾病 (ESRD) 的 主要 原因 。 印 度 、 中 国 
及 其 他 发 展 中 国家 受 糖尿 病 影响 的 人 数 正在 迅速 增长 ， 
给 患者 和 卫生 保健 系统 造成 了 志 界 性 的 负担 “1。 因此， 
实现 DN 的 早期 诊断 和 治疗 , 有 助 于 预防 或 延缓 其 发 生 、 
发 展 ， 从 而 提高 患者 的 预期 寿命 | 。 

为 了 更 好 地 控制 疾病 的 进程 ， 诊 断 出 更 易 患 DN 的 
患者 至 关 重 要 3; 。 近 年 来 ， 随 着 数据 挖掘 的 发 展 ， 机 
器 学 习 在 糖尿 病 研究 中 发 挥 着 越 来 越 重 要 的 作用 1 。 
HEP KERR (KNN) 、 支 持 向 量 机 (SVM ) AUS In] f 
播 神经 网 络 ( BPNN ) 模型 是 常见 的 数据 挖掘 模型 。 与 
SVM 等 传统 的 机 器 学 习 算 法 相 比 ，BP 神经 网 络 具 有 良 
好 的 非 线性 映射 能 力 、 自 适应 性 、 容 错 性 等 优点 ， 


但 在 实际 应 用 中 也 存在 一 定 缺 陷 , 如 易 陷入 局 部 极 小 值 、 
结果 存在 随机 性 、 网 络 收敛 速度 慢 等 “  。 因 此 ， 有 必 
要 改进 标准 的 BP 神经 网 络 算法 。 麻 省 搜索 算法 (SSA ) 
是 XUE 等 受 麻 答 现 食 和 反 捕 食 行 为 启发 而 提出 的 一 
种 仿生 智能 优化 算法 ， 因 其 具有 良好 的 灵活 性 和 全 局 寻 
优 能 力 ， 研 究 者 们 将 其 与 BP 神经 网 络 相 结合 以 弥补 其 
缺点 ,但 目前 多 应 用 于 电力 工业 、 自 动 化 技术 等 领域 1 
因此 本 研究 将 探索 SSA 优化 的 BP (SSA-BP ) 神经 网 络 
应 用 于 DN 的 诊断 预测 中 ,以 期 提升 模型 预测 的 准确 率 ， 
或 可 为 DN 的 早期 第 查 和 诊断 治疗 提供 理论 依据 /临床 
参考 。 


1 对 象 与 方法 


1.1 研究 对 象 
数据 来 源 于 KHODADADI 等 中 公开 的 伊朗 133 名 
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糖尿 病 患者 的 并 发 症 数 据 (https: //data.mendeley.com/ 
datasets/k62fdsnwkg/1) 。 数 据 集 由 133 例 糖尿 病 患 者 (1 
型 和 2 型 ) 的 24 项 信息 组 成 : 性 别 、 年 龄 、BMI、 糖 
尿 病 类 型 、 糖 尿 病 持续 时 间 、 空 腹 血 糖 (FBG ) 、 糖 化 
血红 蛋白 (HbA,.) 、 低 密度 脂 和 蛋白 (LDL) 、 高 密度 
IKEA (HDL ) 、 三 酰 甘 油 CTG) 、 治 疗 类 型 、 他 汀 类 
药物 类 型 、 他 汀 类 药物 剂量 、 神 经 病变 、 肾 病 、 视 网 膜 
病变 、 周 围 血 管 疾病 、 心 血管 疾病 、 足 部 淡 疡 、 歼 明 效 
应 、 收 缩 压 ( SBP ) , SfsKHR (DBP ) 、 累 积 阿 托 伐 他 
汀 当量 ( 实际 低 密 度 脂 蛋 白 胆 固 醇 。 依 据 既 往 文 献 *， 
提取 了 13 个 可 能 与 DN 患者 相关 的 风险 因素 ， 变 量 赋 
值 见 表 1。 


表 1 变量 赋值 说 明 


Table 1 The description of variable assignment 
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14 方法 学 介绍 

1.4.1 LASSO 回归 是 TIBSHIRANI 提出 的 一 种 著名 
的 稀疏 回归 方法 。 作 为 一 种 变量 选择 方法 ，LASSO 回归 
需要 一 个 惩罚 项 来 约束 系数 的 大 小 ， 并 最 终 将 结构 风险 
EERIE, DIE AWE” REU. MERITELE 
包括 lambda.min Fi lambda.1se. 入 到 达 一 定 值 之 后 ， 
继续 增加 自 变量 个 数 并 不 能 很 显著 地 提高 模型 性 能 ， 而 
lambda.1se ( 距离 均 方 误差 一 个 标准 误 时 的 A 值 ) 可 给 
出 一 个 具备 优良 性 能 昌 自 变量 个 数 最 少 的 模型 1。 
1.4.2 KNN 算法 是 一 种 监督 机 器 学 习 算法 ， 可 用 于 解 
决 回归 和 分 类 问题 “1 。KNN 分 类 是 最 基本 、 最 简单 的 
分 类 方法 之 一 ， 在 对 数据 分 布 知之 其 少 或 一 无 所 知 的 情 
况 下 ， 该 方法 是 分 类 研究 的 首选 方法 之 一 。 其 不 需要 考 
虑 模型 构建 的 细节 , 目 模型 中 唯一 可 调整 的 参数 是 KU S 
其 易于 理解 和 实现 ， 但 主要 缺点 是 随 着 使 用 中 数据 的 大 
小 增长 ， 速 度 会 明显 变 慢 "| 。 

1.4.3 CORTES 等 '8 于 1995 年 提出 了 SVM 模型 。 
SVM 的 常见 的 核 函 数 种 类 有 : 线性 、 多 项 式 、 高 斯 和 
Sigmoid 核 函 数 。 优 点 是 泛 化 错误 低 ， 可 获得 准确 和 稳 
健 的 结果 ， 适 用 于 非 结 构 化 和 半 结 构 化 数据 集 ( 如 图 像 
和 文本 ) 。 缺 点 是 当 用 于 大 型 学 习 任务 时 ， 对 内 存 和 时 
间 要 求 较 高 '"”1, 此 外 , 对 参数 调节 和 核 函数 的 选择 敏感 ， 
变量 的 权重 在 最 终 模 型 中 难以 解释 1 。 

1.4.4 BP 神经 网 络 是 根据 误差 反问 传播 算法 训练 的 多 
层 前 馈 网 络 ， 是 应 用 较 广 泛 的 神经 网 络 模 型 之 一 。SSA 


编号 变量 名 赋值 情况 及 值 范围 

1 肾病 否 =0 (对 照 ) ， 是 =1 

2 性 别 女 =0 (对 照 ) ， 男 =1 

3 年 龄 ( 岁 ) <40=1 ( 对照 ) , 40~<60=2, = 60=3 
Um NEN o x 
5 ”糖尿 病 持续 时 间 (年 ) <10=0 (对 照 ) ， 10=1 

6 FBS ( mg/dL ) 实测 值 : 80-510 

7 HbA,. ( mg/dL ) 实测 值 : 6.5-13.3 

8 LDL ( mg/dL ) 实测 值 : 36-267 

9 HDL ( mg/dL ) 实测 值 : 20-62 

10 TG (mg/dL ) 实测 值 : 74-756 

T 治疗 类 型 口服 剂 21 (X p 胰岛 素 =2， 二 


$ y 药物 = sF HA 站 " 
12 mapa FITRA =i OM) MENA 
13 SBP ( mmHg ) 实测 值 : 105-180 
14 DBP ( mmHg ) 实测 值 : 60-120 
ik: FBG- 空腹 血糖 ,HbA1.= 糖化 血红 和 蛋白, LDL= 低 密 度 脂 蛋白 ， 
HDL- 高 密度 脂 蛋 白 ，TC= 三 酰 甘 油 ，SBP= 收缩 压 ，DBP= 舒张 压 ; 
1 mmHg=0.133 kPa. 


12 ”数据 处 理 

剔除 9 例 1 型 糖尿 病 患者 ， 本 研究 纳入 的 有 效 样 本 
量 为 124 例 T2DM 患者 ， 其 中 73 例 患 有 DN, IER, 
糖尿 病 持续 时 间 和 BMI 连续 变量 离散 化 并 编码 。 以 是 
否 患 DN 为 因 变 量 , 分 别 用 8 :2 和 7:3 的 比例 划分 训 
练 集 和 测试 集 。 
13 ”研究 方法 

将 单 因素 分 析 ( 表 2) 中 P<0.05 的 变量 纳入 LASSO 
回归 中 进一步 筛选 并 确定 最 终 纳入 模型 的 变量 ， 在 训练 
集 上 分 别 使 用 Logistic 回归 (LR) ~ KNN, SVM, BP fif 
经 网 络 和 SSA-BP 神经 网 络 建立 DN 预测 模型 ， 并 在 测 
试 集 上 进行 验证 。 


在 一 定 程 度 上 改进 了 对 优化 搜索 空间 的 探索 和 利用 ， 
有 效 地 避免 了 局 部 最 优 问题 o EARNER, MRE 
被 分 为 发 现 者 、 加 入 者 和 预警 者 。 假 设 4 维 空间 中 
有 N 只 麻雀 ， 每 只 麻雀 的 位 置 为 X= [xy X^. ons 
xy] ， 适 应 度 值 人 f (x，X ，…，xn ) 。 该 算法 主要 分 
为 3 部 分 ， 通 过 3 个 公式 来 进行 更 新 2 。 首 先 ， 发 现 
者 的 位 置 更 新 如 公式 (1 ) : 

rnein 1) 

式 中 41 表示 当前 迭代 次 数 ，j=1，2,，…，d, XL 
IRN t E i AREIS j ÆRME iterna 是 最 大 送 代 
次 数 (常数) ，a 是 一 个 随机 数 (a € (0, 1] )。 
R,(R,€[0,1]) fisr(sTe[05, 10] ) 分 别 
表示 预警 值 和 安全 值 。Q 是 服从 正 态 分 布 的 随机 数 。L 
表示 一 个 1 x d 维 的 矩阵 ， 其 内 部 每 个 元 素 都 为 1。 
其 次 ， 加 入 者 的 位 置 更 新 如 公式 (2): 


NT S "- 
9 e| Ü | f£» 5 x (2) 
XP 十 | 不 人 一 下 全 1.4+. otherwise 

X 是 发 现 者 占据 的 最 优 位 置 。X,,, 表示 当前 全 局 
RME. AA" ( AA" ) T, AXIR 1 x d 的 和 矩阵， 其 


中 每 个 元 素 随 机 分 配 1 或 -1,A 的 转 置 是 A', 当 i > nm/2 时 ， 


X= 
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表明 第 i 个 适应 度 值 较 差 的 加 入 者 最 有 可 能 处 于 饥饿 状 
态 。 预 警 者 一 般 占 总 种 群 的 10%-20%， 这 些 麻 稚 的 初 
始 位 置 是 在 种 群 中 随机 生成 的 , 其 位 置 更 新 如 公式 (3 ): 

人 Xil YT 


WU EXC UP AR (3) 
t ij — worst . m 人工 z 
XK] ESI if fif, 


式 (3) 中 总。 为 当前 全 局 最 优 位 置 ， 代 表 种 群 中 
心 的 位 置 ， 并 且 在 它 周 围 是 安全 的 。B 是 服从 均值 为 0 
方差 为 1 的 正 态 分 布 的 随机 数 ， 作 为 步 长 控制 参数 。K 
(KE [-1, 1] ) 是 一 个 随机 数 ， 表 示 麻 稚 移 动 的 方 
向 ,也 是 一 个 步 长 控制 参数 。f do WIRES XS V REF, 
/和 /分 别 是 当前 全 局 最 佳 和 最 差 适 应 度 值 ，s 是 常 
3C0U 。 图 1 是 算法 的 流程 图 。 


Xie 


麻 从 搜索 算法 部 分 BP 神经 网 络 部 分 
确定 BP 网 络 拓扑 结构 
输入 Y 
数据 初始 化 BP 神经 网 络 的 
Y Y PUETE 
数据 预 e ”初始 化 SSA 参数 Y 
处 理 y l 获取 最 优 权 值 和 阅 值 | 
计算 种 群 适应 度 , dE | Y 
-»- 到 最 优 和 最 差 的 适应 SSA-BP 神经 网 络 训练 
度 值 及 其 对 应 位 置 
Y 仿真 预测 。 ] 
发 现 者， 加 入 者 和 预 7 
警 者 位 置 更 新 
5 i 结束 | 
更 新 后 的 适应 度 值 与 
原 最 优 值 比较 ， 更 新 
全 局 最 优 信息 
Y 
满足 结束 条 件 
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21 ”一般 资料 

124 例 研 究 对 象 中 73 例 (58.996 ) 被 诊断 为 DN。 
2.0 T2DM 患者 DN 危险 因素 的 单 因素 分 析 

JG DN 和 患 DN 患者 的 性 别 、 治 疗 类 型 、 他 汀 类 
药物 类 型 比较 ， 差 异 无 统计 学 意义 (P>0.05 ) ; 无 DN 
和 患 DN 患者 的 年 龄 、BMI、 糖 尿 病 持续 时 间 、FBS、 
HbA,. LDL, HDL, TG, SBP, DBP 比较 ， 差 异 有 统计 
学 意义 (P«0.05) ， 见 表 2。 
2.3 LASSO 回归 变量 筛选 

基于 训练 集 ， 以 是 否 发 生 DN 为 因 变 量 ， 以 单 因素 
分 析 中 有 统计 学 意义 的 10 个 变量 为 自 变 量 进行 LASSO 
回归 分 析 , 多 分 类 变量 在 纳入 模型 前 先进 行 哑 变 量化 ( 10 
个 自 变 量变 为 13 个 候选 变量 ) 。 选 择 10 倍 交叉 验证 下 
lambda.1se ( lambda.1se=0.068 191 87 ) 为 模型 最 优 值 ( 
2), ， 训 练 集 : 测试 集 =8 : 2 时 结果 显示 ， 年 岭 、 糖 尿 
病 持续 时 间 、HbAi,、LDL 和 SBP 是 与 DN 发 生 相 关 的 
5 个 变量 ， 训 练 集 : 测试 集 =7 :3 时 结果 显示 ， 年 龄 、 
BMI、 糖 尿 病 持续 时 间 、LDL、HDL、SBP 和 DBP 是 与 
DN 发 生 相 关 的 7 个 变量 。 
24 ”LR 模型 的 建立 

以 是 否 发 生 DN 为 因 变 量 ( 赋 值 : 0-0, X 
=1) ， 以 LASSO 回归 筛选 出 的 变量 为 和 月 变量 进行 
LR 分 析 。 多 分 类 变量 进行 哑 变 量 处 理 ， 因 某 些 分 类 
算法 (如 SVM、LR 和 神经 网 络 ) 在 未 缩放 的 数据 
上 表现 不 佳 '2 ， 所 以 计量 资料 采用 标准 化 公式 归 
一 化 处 理 成 (0, 1) 区 间 的 变量 ， 进 而 建立 LR 模 
型 。 训 练 集 :测试 集 =8 :2 时 ， 结 果 显 示 糖 尿 病 持 


注 : SSA= 麻 稚 搜索 算法 ，BP= 反 向 传播 。 
1 SSA-BP 神经 网 络 流程 图 
Figure Flow chart of SSA-BP neural network 


15 统计 分 析 与 软件 

采用 SPSS 26.0 软件 进行 统计 学 分 析 ， 以 P<0.05 为 
差异 有 统计 学 意义 。 计 数 资 料 采 用 [ 例 (% ) ] 描述 ， 
两 组 比较 采用 x’ 检验 或 Fisher's 确切 概率 法 。 符 合 正 
态 分 布 的 计量 资料 以 (z+s ) 表示 ， 两 组 间 比 较 采 用 两 
独立 样本 检验 。 非 正 态 分 布 的 计量 资料 用 M ( QR ) X 
示 ， 两 组 间 比 较 采 用 Mann-Whitney 检验 。 采 用 R 4.2.2 
软件 中 的 glmnet, kknn, e1071 程序 包 在 训练 集 上 建立 
LASSO 回归 、KNN 和 SVM 模型 。 采 用 caret 程序 包 的 
dummyVars 困 数 对 多 分 类 变量 进行 哑 变 量 处 理 。 采 用 
MATLAB 2022a 软件 构建 BP 神经 网 络 和 麻 汰 搜索 SSA- 
BP 的 神经 网 络 模型 。 最 后 在 测试 集 上 评价 性 能 ， 由 混 
淆 矩阵 计算 出 的 准确 度 、 精 确 度 、 灵 人 敏 度 和 特异 度 来 判 
断 各 模型 的 优 劣 。 


Z& 时 间 (OR-6.615, 9596CI-1.263-42.533) 、LDL 
( OR=3.647, 95%CI=1.493~10.511 ) , SBP ( OR-4.884, 
9595C[-1.863-17.332 ) 是 DN 的 危险 因素 ( P<0.05 ) o 
LR 模型 表达 式 为 Logit (P) =1.861+1.889 x 糖尿 病 持 
续 时 间 +1.294 x LDL+1.586 x SBP (R=0.767) 。 训 练 
集 :测试 集 =7:3 时， 糖尿病 持续 时 间 (OR=6.786， 
9596,CI-1.154-54.104) , LDL ( OR=5.834, 
9595CI-2.128-21.033 ) 是 DN 的 危险 因素 (P«0.05) , 
表达 式 为 Logit ( P) 2-16.04141.915 x 糖尿 病 持续 时 间 
+1.764 x LDL ( &-0.739 ) 。 
2.5 KNN 模型 的 建立 

以 是 否 发 生 DN 为 因 变量 ( 赋值 : T$ -0, 4-1) 
在 训练 集 上 建立 KNN 模型 。 利 用 Caret 包 中 tain ( ) 
函数 的 网 格 搜索 法 寻找 K 的 最 佳 参数 ，K 的 初始 取 值 范 
围 为 [2,，15 ]。 分 别 在 训练 集 :测试 集 =8 :2 和 7:3 时， 
十 折 交 叉 验 证 正确 率 最 高 时 得 到 的 最 优 K 值 分 别 为 14 
和 9。 
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表 2 2 型 糖尿 病 肾病 患者 相关 危险 因素 的 单 因 素 分 析 
Table 2 Univariate analysis of risk factors jeudi) with type 2 diabetic 
nephropathy 

ZR ed CE NE 
性 别 [ 例 (%) ] 1759 0.185 
女 34 (66.7) 40 (548) 
5 17 (333) 33 (452) 
年 龄 [ 例 (%) ) 19.229° <0.001 
<40 53 5 (9.8) 4 (5.5) 
40-«60 风 37 (725) 28 (384) 
2605 9 (17.6) 41 (562) 
BMI [fij (96) ] 13.100' — 0.002 
«18.5 kg/m 2 (39) 0 
18.5 -«24.0 kg/m" 10 ( 19.6) 2 (23) 
24.0-«28.0 kg/m" 9 (17.6) 12 (164) 
> 28.0 kg/m" 30 (58.8) 59 (80.8) 
糖尿 病 持续 时 间 [ 例 (%) ] 27358  <0.001 
<10 年 39 (76.5) 21 (28.8) 
> 10 年 12 (23.5) 52 (71.2) 
FBG (X £s, mg/dL) 181.33 +65.97  229.03+54.84 — -438l' «0.001 
HbA [M (QR) , %] 8.10 (1.60) 10.80 (0.95) — -5773 «0.001 
LDL (x £s, mg/dL) 109.12435.17 152.68 +42.672 -6.003 «0.001 
HDL (x £s, mg/dL) 38.55 + 843 35.74+5.836 2.193" 0.030 
TG (xs, mg/dL) 181.96 +84.95 242.04 + 102.793  -3433' 0.001 
DM. treat [ BB] (%) ] 4281 — 0.113 
口服 齐 35 (68.6) 38 (52.1) 
胰岛 素 4(78) 14 (192) 
E 12 (23.5) 21 (288) 
Statin [ 例 (%) ] 0.814 0.778 
无 他 汀 类 药物 16 (31.4) 19 (26.0) 
阿 托 伐 他 汀 34 (66.7) 53 (726) 
瑞 舍 伐 他 汀 1(20) 1(14) 
SBP (x 5s, mmHg 130 & 15 155214 -9.524 «0.001 
DBP (x £s, mmHg) 8129 98 12 -8499' «0.001 
ik: DN= 糖尿 病 肾 病 ;“ 表示 x 值 ," 表示 1 值 ,“ 表示 Z 值 。 


2.0 SVM 模型 的 建立 


JETE DN 为 因 变 量 ( 赋值 : 否 =0， 是 =1 )， 
LASSO 回归 筛选 的 变量 为 自 变量 ( 如 表 1) 建立 径 向 基 
核 国 数 支 持 向 量 机 模型 (kernel=" radial" ) 。 利 用 R 软 
件 中 的 tune.svm ( ) 函数 的 网 格 搜索 法 来 寻找 最 优 参数 ， 
C5 y 的 初始 取 值 范围 分 别 为 [0.001, 0.01, 0.1, 1, 5, 
10, 100, 1000] 和 [0.1, 0.5, 1, 2, 3, 4]。 在 训练 集 : 
测试 集 =8 : 2 和 7:3 时 ， 十 折 交 叉 验 证 错误 率 最 低 时 的 
选 出 的 最 佳 参 数 分 别 为 C=10、y =0.1 和 C=1、xy =0.1。 
2. BP 神经 网 络 模型 的 建立 

考虑 到 训练 时 间 和 模型 复杂 度 ， 本 研究 建立 3 层 
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Log (入 ) 
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Log (A ) 


ik: A 训练 集 : 
交叉 验证 的 LASSO 


测试 集 =8 : 2 时 ，13 个 变量 的 系数 曲线 和 10 ir 
归 选 择 最 佳 的 变量 ; B 训练 集 : 测试 集 =7 : 3 时 ， 


n 


13 个 变量 的 系数 


曲线 和 10 倍 交叉 


验证 的 LASSO 回归 选择 最 佳 的 变量 


BP 神经 网 络 模型 。 
于 提高 网 络 的 训练 


将 样本 值 进 和 
速度 。 


在 训练 集 : 


于 归 一 化 处 型 
测试 集 


EE， 这 有 助 


=8: 2 时 ， 


图 2 LASSO 回归 变量 筛选 
Figure 2 LASSO regression screening for variables 
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输入 层 节 点 数 (n) 为 5， 输 出 层 节 点 数 (m) 为 2。 
基于 常用 的 经 验 公 式 (n : [h2 nim +a, a€ (1, 
10) ] , 487 29 2.6, 再 加 上 a, 则 隐藏 层 节点 范围 [ 3.6, 
12.6] ， 则 取 21 。 同 理 在 训练 集 : 测试 集 =7 : 3 时 ， 
/为 7, mON 2, Kel de ELIO ^^ 3 。 经 多 次 试 
验 ， 在 训练 集 : 测试 集 =8 : 2 和 7:3 时 ,最 佳 隐藏 层 节 
点 数 分 别 为 8 和 12 时 拟 合 效果 最 好 ， 因 此 网 络 拓扑 结 
构 分 别 设 为 5-8-2 和 7-12-2。 隐 藏 层 及 输出 层 的 激励 
男 数 采用 双 曲 正切 $ 型 图 数 及 线性 求 和 因数 : tansig (n ) 
=2/ (1467) -1; purelin (n) =n， 训 练 次 数 1 000 次 ， 
网 络 训练 速率 为 0.01， 训 练 目 标 最 小 误差 为 0.000 1, 
Levenberg-Marquardt 法 为 训练 算法 ， 用 梯度 下 降 法 更 新 
权重 。 
2.8 SSA-BP 神经 网 络 模型 的 建立 

参数 初始 化 : SSA 的 进化 代数 为 S0， 种 群 规模 为 
30, ZEW STH 0.6; 发 现 者 比例 PD 为 0.7， 意 识 到 
有 和 危险 的 麻雀 的 比重 SD 为 0.2; 适应 度 函 数 设计 为 训 
练 集 与 测试 集 整 体 准 确 率 的 平均 值 ,适应 度 函 数值 越 大 ， 
表明 模型 训练 越 准 确 ， 随 后 计算 个 体 适 应 度 ; 更 新 发 现 
者 、 加 入 者 和 预警 者 的 位 置 ; 查看 位 置 更 新 之 后 的 个 体 
适应 度 ， 并 与 当前 最 优 适应 度 值 进行 比较 ， 达 到 最 终止 
条 件 则 选择 全 局 最 优 解 ;否则 ， 再 次 进行 迭代 ; 将 模型 
输出 的 最 优 解 作为 神经 网 络 的 权 值 和 阔 值 ， 代 入 BP 神 
经 网 络 进行 训练 ， 利 用 误差 反 向 传播 调节 参数 ， 当 达到 
最 大 迭代 次 数 (1 000) 或 目标 误差 (0.000 1) 的 时 ， 
训练 停止 ; 将 SSA 优化 后 的 BP 神经 网 络 模型 用 于 预测 
是 否 串 DN。 用 均 方 误差 ( MSE) 表示 模型 性 能 , 训练 集 : 
测试 集 =8 : 2 和 7:3 时 ,最终 模型 分 别 在 迭代 20 和 5 
次 处 达到 最 优 。 模 型 进化 /适应 度 曲 线 表明 模型 在 不 断 
优化 ， 最 终 达 到 最 佳 的 适应 度 值 (图 3) 。 


SSA 进化 曲线 


最 佳 适 应 度 


5 10 15 20 25 30 35 
A 进化 代数 
注 : A 训练 集 : 测试 集 =8 : 2; B 训练 集 : 测试 集 =7 : 3 


40 45 50 
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29 ”模型 比较 

基于 测试 集 验证 上 述 模型 的 预测 性 能 ， 各 模型 训练 
集 与 测试 集 的 结果 见 表 3。 在 训练 集 : 测试 集 =8 : 2 时 ， 
KNN 模型 和 SVM 模型 达到 了 同样 的 性 能 ， 其 在 训练 集 
上 优 于 LR 模型 ， 但 在 测试 集 上 却 不 如 LR 模型 。BP 模 
型 在 测试 集 上 的 准确 率 ， 灵 人 敏 度 ，Fl-score 和 AUC 优 
于 LR 模型 ，KNN 模型 和 SVM 模型 ， 整 体 上 SSA-BP 
模型 在 训练 集 和 测试 集 上 的 性 能 优 于 BP、LR、KNN、 
SVM 模型 。 

在 训练 集 : 测试 集 =7 :3 时 ，LR 模型 和 KNN 模型 
在 测试 集 上 结果 相同 ， 但 在 训练 集 上 KNN 模型 性 能 优 
于 LR 模型 。LR、KNN、SVM 模型 在 测试 集 上 具有 相 
同 的 准确 率 , 但 SVM 模型 的 精确 率 ， 特 异 度 和 AUC 高 
于 LR 模型 和 KNN 模型 。 不 管 在 训练 集 还 是 测试 集 上 ， 
LR, KNN, SVM 模型 的 效能 优 于 BP 网 络 神经 网 络 。 
SSA-BP 网 络 神 经 模型 提高 了 BP 神经 网 络 模型 的 性 能 ， 
使 得 测试 集 上 BP 神经 网 络 模 型 的 准确 率 从 72.22% 提 
升 到 了 91.67%。 

对 比 2 个 划分 比例 下 的 模型 性 能 ， 发 现 LR, 
KNN, SVM 模型 在 训练 集 : 测试 集 =7 :3 时 预测 性 能 较 
高 ， 而 BP 和 SSA-BP 则 在 训练 集 : 测试 集 =8 : 2 时 预 
测 性 能 更 高 。 这 可 能 是 BP 神经 网 络 模 型 在 处 理 大 样本 
数据 时 有 优势 , 用 于 训练 的 样本 越 多 , 模型 训练 的 越 好 。 
3 ”讨论 

目前 ，DN 仍然 是 21 世纪 全 球 医 疗 保健 的 重大 临 
床 挑战 和 负担 。 一 项 回顾 性 研究 ( 含 220 例 中国 T2DM 
患者 ) 表明， 年龄、 糖尿病 持续 时 间 和 SBP 与 DN 发 
病 风 险 独 立 相 关 2; ， 另 一 项 回顾 性 调查 ( 含 11 771 例 
T2DM 患者 ) 显示 ， 较 小 年 龄 、 高 BMI 和 更 严重 高 血压 


SSA 进化 曲线 


一 一 最 佳 适应 度 


0 5 10 15 20 25 30 35 40 45 50 
B 进化 代数 


图 3 SSA-BP 神经 网 络 模型 的 进化 曲线 


Figure3 Evolutionary curves of SSA-BP neural network model 
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预测 偏差 
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表 3 机 器 学 习 模 型 在 不 同样 本 拆 分 比例 下 预测 DN 的 准确 率 、 精 确 率 、 灵 敏 度 、 特 异 度 、Fl-score 和 AUC 


Table 3 Accuracy，Pprecision，sensitivity，specificity， 上 1-score and AUC of machine learning models in predicting DN under varied sample splitting ratios 
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注 : A 为 训练 集 : 测试 集 =8 : 2; B 为 训练 集 :测试 集 =7 : 3 
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图 4 BP 神 经 网 络 优化 前 后 的 预测 值 和 真实 值 误差 对 比 图 


Figure 4 Comparison of predicted and observed value errors before and after BP neural network optimization 


25 30 


模型 类 型 准确 率 ( % ) 精确 率 (96) REUE (96) 特异 度 (96) F1-score AUC 

LR 训练 集 89.00 90.00 91.53 85.37 0.907 6 0.884 5 

测试 集 83.33 91.67 78.57 90.00 0.846 2 0.842 9 

KNN 训练 集 91.00 94.64 89.83 92.68 0.9217 0.912 6 

测试 集 79.17 90.91 71.43 90.00 0.8000 0.807 1 

训练 集 : SVM 训练 集 91.00 94.64 89.83 92.68 0.9217 0.912 6 
测试 集 

-8 :2 测试 集 79.17 90.91 71.43 90.00 0.8000 0.807 1 

BP 神经 网 络 训练 集 86.00 84.85 93.33 75.00 0.888 9 0.841 7 

测试 集 87.50 85.71 92.31 81.82 0.888 9 0.8706 

SSA-BP 神经 网 络 训练 集 92.00 94.83 91.67 92.50 0.932 2 0.920 8 

测试 集 95.83 100.00 92.31 100.00 0.9600 0.961 5 

LR 训练 集 87.50 90.20 88.46 86.11 0.893 2 0.873 0 

测试 集 86.11 94.44 80.95 93.33 0.8718 0.8710 

KNN 训练 集 94.32 97.96 92.31 97.22 0.950 5 0.948 0 

测试 集 86.11 94.44 80.95 93.33 0.8718 0.8710 

SVM 训练 集 89.77 97.78 84.62 97.22 0.907 2 0.909 0 

-7 :3 测试 集 86.11 100.00 76.19 100.00 0.864 9 0.8810 

BP 神经 网 络 训练 集 85.23 92.00 83.64 87.88 0.8762 1 0.857 6 

测试 集 7222 75.00 66.67 TIIR 0.705 9 0.7222 

SSA-BP 神经 网 络 训练 集 94.32 94.64 96.36 90.91 0.9550 0.936 4 

测试 集 91.67 100.00 83.33 100.00 0.909 1 0.9167 


i: LR=Logistic 回归 ，KNN=K 近邻 ，SVM= 支持 向 量 机 。 


是 增加 DN 发 病 率 的 独立 危险 因素 5, ， 这 与 本 研究 结 
果 一 致 。LASSO 回归 结果 显示 ， 年 龄 和 DN 发 病 呈 负 
相关 ， 说 明年 龄 40~<60 岁 者 较 年 龄 <40 岁 者 更 不 易 患 
DN， 可 能 因为 2 型 糖尿 病 在 年 轻 人 中 更 为 常见 ， 患 
2 型 糖尿 病 的 年 轻 人 表现 出 典型 的 一 系列 危险 因素 ， 如 
不 良 的 生活 习惯 和 环境 因素 导致 的 肥胖 、 胰 岛 素 抵抗 、 

高 血压 和 血脂 异常 ， 这 些 也 是 DN 的 风险 因素 5 。 而 
与 本 研究 结果 不 同 的 是 ， 国 际 糖尿 病 联盟 数据 显示 糖尿 
患 病 率 随 年 龄 增长 而 增加 ， 年 龄 范围 在 65~79 岁 人 


群 的 患 病 率 为 19.9% (1.112 亿 ) ， 达 到 最 高 '” ， 而 
RAVINDRAN 等 U* 发 现年 龄 与 DN 之 间 没 有 相关 性 。 
高 珍 秀 '” 证实 了 HbA,. SBP 和 脉 压 的 变异 性 是 
DN 发 生发 展 的 关键 影响 因子 。 今 日 研究 小 组 发 现 与 
DN 等 微血管 并 发 症 发 生 风 险 增加 相关 的 因素 是 高 水 平 
HbA,, ^ 。 有 研究 表明 HbA, 升 高 是 肾 小 球 滤 过 率 快速 
下 降 的 危险 因素 "i 。 英 国 前 脆性 糖尿 病 研究 ”| 表明 
长 期 血糖 控制 不 佳 是 糖尿 病 发 生 微血管 并 发 症 或 进一步 
恶化 主要 危险 因素 ， 并 且 该 风险 随 着 HbA,. 水平 的 升 高 
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旦 指数 增加 。 本 研究 结果 显示 HbA 与 DN 正 相 关 ， 这 
与 前 述 研究 结果 一 致 。 既 往 表明 改善 血糖 控制 对 DN 的 
发 生 和 进展 具有 有 益 的 作用 , MAI, SHIKATA 等 
的 研究 表明 ， 强 化 血糖 控制 对 日 本 DN 患者 并 没有 显示 
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有 研究 表明 ， 一 般 对 于 平衡 和 不 平衡 数据 ，SVM 模型 
和 LR 模型 具有 相同 的 性 能 ， 而 对 于 高 度 不 平衡 的 数据 
集 ，SVM 模型 可 能 会 更 好 ” 。 但 与 本 研究 结果 不 一 
致 ， 训 练 集 : 测试 集 =8: 2 时 ， 测 试 集 上 LR 模型 的 


排版 稿 


出 治疗 优势 。 强 化 血糖 控制 对 肾病 的 益处 目前 还 存在 争 
议 [35] 

GALL 等 .对 26 名 患者 (1 名 女性 ) 平 均 随 访 5.2 年 ， 
结果 表明 SBP (并非 DBP) 升 高 会 加 速 T2DM 患者 DN 
的 进展 。SHI 等 .开展 的 一 项 横断 面 研究 (4 219 例 患 
者 ) 结果 显示 ，SBP 是 DN 的 危险 因素 。 有 研究 单 因 素 
Logistic 分 析 显 示 总 胆固醇 (TC) 、TG、LDL 对 肾 功 能 
HERAK 。 今 日 研究 小 组 的 研究 表明 高 血压 和 血 
脂 异 常 与 DN 发 生 风 险 增加 相关 "9 。 本 研究 LASSO 回 
归结 果 显 示 SBP, LDL 5 DN 正 相 关 ，LR 模型 结果 显 
示 SBP 和 LDL 是 DN 的 危险 因素 ， 与 既往 研究 一 致 。 

研究 表明 DN 随时 间 的 推移 而 发 展 ， 发 病 高 峰 出 现 
在 患 糖 尿 病 10-20 年 后 ， 发 病 率 为 20%-~40% 0^, — 
项 来 自 巴基斯坦 随访 12 年 的 研究 表明 糖尿 病 持 续 时 间 
越 长 ,DN 的 发 病 率 起 高” JIANG ^ 1^ DJ 30 ffl 
T2D 患者 为 研究 对 象 开发 了 一 个 DN 预测 模型 ， 发 现 典 
型 的 T2DM 患者 DN 的 病程 通常 超过 10 年 。SHI 等 "71 
的 研究 表明 糖尿 病 病程 >10 年 的 T2DM 患者 患 DN 的 风 
险 较 高 ， 其 次 是 病程 为 5~10 年 的 患者 。 本 研究 LR 模 
型 结果 显示 糖尿 病 持 续 时 间 是 DN 的 危险 因素 ，LASSO 
回归 结果 显示 ， 糖 尿 病 持续 时 间 和 DN 正 相 关 ， 糖 尿 病 
持续 时 间 三 10 年 的 患者 DN 的 发 病 风 险 较 高 ， 与 既往 
研究 结果 一 致 。 

本 研究 分 别 采 用 LR、KNN、SVM、BP 神经 网 络 、 
SSA-BP 神经 网 络 建立 DN 诊断 模型 ， 总 体 上 SSA-BP 
神经 网 络 模型 性 能 最 佳 。 传 统 LR 分 析 适 用 范围 广 ， 应 
用 灵活 。 对 于 特定 的 问题 ， 其 性 能 相当 于 甚至 优 于 一 些 
相对 复杂 的 机 器 学 习 算法 2 。LYNAM 等 “1! 在 判别 糖 
尿 病 患者 类 型 (1 型 2 型) 时，LR 模型 的 性 能 与 更 复 
杂 的 方法 (如 神经 网 络 、KNN 模型 、 随 机 森林 、SVM 
模型 ) 一 样 好 。 于 大 海 等 "在 评估 肝 硬 化 上 消化 道 出 
血 患 者 的 预后 时 发 现 LR 模型 的 准确 率 (81.5%) 高 于 
决策 树 (75.1% ) ， 本 研究 之 一 相同 ， 当 训练 集 : 测试 
集 =8 : 2 时， 在 测试 集 上 LR 模型 的 准确 率 (83.33% ) 
高 于 KNN 和 SVM， 且 本 研究 LR 模型 性 能 优 于 于 大 海 
等 研究 ， 可 能 原因 为 本 研究 样本 量 虽 小 但 数据 代表 性 强 
于 后 者 。 在 对 妊娠 期 糖尿 病 的 早期 预测 研究 中 ， 机 器 学 
习 模 型 的 整体 性 能 与 LR 模型 相似 "$1。DAGHISTANI 
等 1%] 基于 风险 因素 预测 糖尿 病 时 ， 随 机 森林 算法 的 精 
确 率 、 灵 敏 度 分 别 为 0.883 和 0.880， 预 测 性 能 高 于 LR 
算法 (0.692 和 0.703 ) 。 本 人 研究 LR 算法 精确 率 和 灵敏 
度 分 别 为 91.67%、78.57%， 优 于 上 述 人 研究 的 LR 模型 。 


整体 预测 性 能 优 于 SVM 模型 。KNN 被 称 为 惰性 算法 ， 
因为 没有 明显 的 训练 阶段 ， 即 使 有 也 非常 小 “1 。 训 练 
集 : 测试 集 =8: 2 时 KNN 模型 的 测试 集 准 确 率 只 达到 
79.17%， 可 能 是 KNN 模型 在 训练 过 程 中 学 习 到 的 东西 
并 不 多 ,效率 较 低 “|! 。 本 研究 及 既往 研究 表明 ， 机 器 
学 习 算 法 与 回归 模型 的 性 能 结果 不 一 致 。 分 析 可 能 的 原 
KHA: LR 模型 适用 于 变量 与 结果 之 间 具 有 线性 关系 的 
简单 数据 ， 而 应 用 于 非 线性 关系 的 数据 性 能 较 差 ;许多 
类 型 的 机 器 学 习 模 型 和 LR 模型 可 能 适合 不 同 的 数据 集 ， 
并 在 不 同 的 数据 集中 表现 不 同 '“1 ;同时 还 有 样本 量 的 

近年 BP 神经 网 络 的 应 用 越 来 越 广 泛 。 汪 可 可 等 '” 
基于 BP 神经 网 络 建立 急性 脑 梗死 患者 自发 性 出 血性 转 
化 的 风险 预测 模型 ， 效 果 较 好 。 田 娟 等 “应 用 BP 神 
经 网 络 构建 儿童 甲状 腺 疾病 预测 模型 ， 结 果 模 型 准确 度 
达到 91.43% ， 误 差 较 小 ， 相 比 之 下 本 研究 BP 神经 网 络 
仅 达到 了 87.50% 的 准确 率 ， 但 灵敏 度 较 高 (92.3196) 。 
然而 为 克服 BP 神经 网 络 全 局 搜索 能 力 低 下 等 缺陷 , VF 
多 研究 者 对 其 进行 了 组 合 优化 研究 ， 并 达到 了 较 好 的 效 
果 。 黄 仕 锣 等 ' | 使 用 遗传 算法 优化 BP 神经 网 络 ， 建 
立 预测 T2DM 性 周围 神经 病变 的 模型 ， 准 确 率 分 别 达到 
了 98.996, 99.5%, 性 能 优 于 本 研究 建立 的 SSA-BP 模 型 。 
pores O 利用 BP 网 络 、SSA-BP 网 络 对 麦 冬 药 液 糖 
析出 过 程 建立 回归 预测 模型 ， 发 现 后 者 预测 精度 更 高 更 
fax. chip CU 利用 思维 进化 算法 优化 的 BP 神经 网 
络 判 断 2 型 糖尿 病 患 者 所 处 的 并 发 症 阶 段 ， 预 测 误差 更 
低 。 本 研究 中 SSA-BP 神经 网 络 模 型 在 各 评估 参数 上 具 
有 明显 优势 ， 预 测 误差 更 小 ， 优 化 算法 提高 了 BP 神经 
网 络 的 泛 化 性 。 

RODRIGUEZ-ROMERO 4& ^ fij 2 型 糖尿 病 肾 病 
时 (10 251 例 ) 结果 显示 ，RF 模型 和 LR 模型 性 能 最 
好 ， 准 确 率 均 为 84.0%，MANIRUZZAMAN 45 /?! 利用 
主 成 分 分 析 进 行 特征 提取 ， 采 用 线性 判别 分 析 、SVM、 
LR, KNN, 、 朴 素 贝 叶 斯 和 神经 网 络 技术 建立 DN 预测 模 
型 ( 133 例 ) ， 结 果 高 斯 核 函数 ( RBF ) SVW 分 类 准确 
率 最 高 (88.7%) 。DAVID 等 ' 基于 410 个 实例 的 数 
据 集 建立 糖尿 病 肾脏 病 ( DKD ) 预测 模型 ， 结 果 KNN 
和 随机 树 分 类 器 的 性 能 最 好 ( 准确 率 93.658 5%) 。 本 
研究 构建 的 SSA-BP 神经 网 络 模型 性 能 优 于 既往 研究 ， 
可 能 因为 样本 量 较 小 而 达到 了 较 好 的 性 能 。 

神经 网 络 在 医学 中 应 用 广泛 ， 针 对 其 他 糖尿 病 并 发 
症 或 慢 病 ， 神 经 网 络 均 可 找到 适合 的 网 络 结构 来 进行 学 
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习 ， 有 较 好 的 拓展 性 。SSA-BP 神经 网 络 模型 无 需 对 输 
入 数据 的 统计 模型 作 任何 先 验 假设 ， 为 基于 神经 网 络 
的 2 型 糖尿 病 肾病 的 准确 预测 提供 了 算法 支持 和 理论 依 
据 。 本 人 研究 的 局 限 是 数据 样本 量 较 少 ， 未 来 可 基于 大 术 
本 数据 进行 进一步 的 探索 ; 此 外 ， 未 进行 外 部 验证 ， 有 
研究 建议 模型 最 好 利用 外 部 数据 集 和 领域 专家 来 检查 模 
型 的 合理 性 , 像 支 持 回 量 机 或 神经 网 络 等 “ 黑 盒 模型 ”， 
可 解释 性 差 ， 只 能 通过 外 部 验证 或 借助 可 解释 机 器 学 习 
模型 ”| ， 未 来 将 继续 探索 其 在 外 部 数据 集 上 的 性 能 。 

作者 贡献 : 令 琼 、 张 杨 进行 数据 的 下 载 及 整理 ;分 
琼 、 吴 暴 、 陈 长 生 进行 文章 的 构思 与 设计 、 论 文 的 修订 ; 
邹 琼 、 吴 上 暴 、 张 杨 、 万 谢 、 陈 长 生 进行 研究 的 实施 与 可 
行 性 分 析 ; R RIR KA, TARER 
解释 并 撰写 论文 。 
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